智能论文笔记

A Mutually Exciting Latent Space Hawkes Process Model for Continuous-time Networks

Zhipeng Huang , Hadeel Soliman , Subhadeep Paul , Kevin S. Xu

分类：机器学习 | (统计)机器学习

2022-05-19

网络和时间点过程是建模各个领域中复杂动态关系数据的基本构件。我们建议使用节点的潜在空间表示形式，提出了潜在空间鹰队（LSH）模型，这是一种连续时间的关系网络的新型生成模型。我们使用共同令人兴奋的霍克斯工艺在节点之间建模关系事件，其基线强度取决于潜在空间中的节点与发件人和接收器特定效果之间的距离。我们证明，我们提出的LSH模型可以复制在包括互惠和传递性在内的真实时间网络中观察到的许多功能，同时还可以实现卓越的预测准确性并提供比现有模型更明显的拟合。

translated by 谷歌翻译

The Multivariate Community Hawkes Model for Dependent Relational Events in Continuous-time Networks

Hadeel Soliman , Lingfei Zhao , Zhipeng Huang , Subhadeep Paul , Kevin S. Xu

分类：机器学习 | (统计)机器学习

2022-05-02

随机块模型（SBM）是用于网络数据最广泛使用的生成模型之一。鉴于块或社区成员身份，许多连续的动态网络模型都建立在与SBM相同的假设上：有条件地有条件地独立在真实网络中观察到。我们提出了多元社区霍克斯（Mulch）模型，这是一种非常灵活的基于社区的模型，用于连续时间网络，使用结构化的多元霍克斯工艺在节点对之间引入依赖性。我们使用基于光谱聚类和基于可能性的本地改进程序拟合模型。我们发现，我们所提出的覆盖模型比在预测和生成任务中都比现有模型更准确。

translated by 谷歌翻译

Better Transcription of UK Supreme Court Hearings

Hadeel Saadany , Constantin Orăsan , Catherine Breslin

分类：自然语言处理

2022-11-29

Transcription of legal proceedings is very important to enable access to justice. However, speech transcription is an expensive and slow process. In this paper we describe part of a combined research and industrial project for building an automated transcription tool designed specifically for the Justice sector in the UK. We explain the challenges involved in transcribing court room hearings and the Natural Language Processing (NLP) techniques we employ to tackle these challenges. We will show that fine-tuning a generic off-the-shelf pre-trained Automatic Speech Recognition (ASR) system with an in-domain language model as well as infusing common phrases extracted with a collocation detection model can improve not only the Word Error Rate (WER) of the transcribed hearings but avoid critical errors that are specific of the legal jargon and terminology commonly used in British courts.

translated by 谷歌翻译

Data Augmentation using Feature Generation for Volumetric Medical Images

Khushboo Mehra , Hassan Soliman , Soumya Ranjan Sahoo

分类：计算机视觉 | 机器学习

2022-09-28

医疗图像分类是图像识别领域中最关键的问题之一。该领域的主要挑战之一是缺乏标记的培训数据。此外，数据集通常会出现类不平衡，因为某些情况很少发生。结果，分类任务的准确性通常很低。特别是深度学习模型，在图像细分和分类问题上显示出令人鼓舞的结果，但它们需要很大的数据集进行培训。因此，需要从相同分布中生成更多的合成样品。先前的工作表明，特征生成更有效，并且比相应的图像生成更高。我们将此想法应用于医学成像领域。我们使用转移学习来训练针对金标准班级注释的小数据集的细分模型。我们提取了学习的功能，并使用它们使用辅助分类器GAN（ACGAN）来生成在类标签上进行调节的合成特征。我们根据其严重程度测试了下游分类任务中生成特征的质量。实验结果表明，这些生成特征的有效性及其对平衡数据和提高分类类别的准确性的总体贡献的结果有希望的结果。

translated by 谷歌翻译

Offensive Language Detection on Twitter

Nikhil Chilwant , Syed Taqi Abbas Rizvi , Hassan Soliman

分类：自然语言处理 | 机器学习

2022-09-28

在社交媒体中发现进攻性语言是社交媒体面临的主要挑战之一。研究人员提出了许多高级方法来完成这项任务。在本报告中，我们尝试利用他们的方法中的学习，并结合我们的想法以改进它们。我们在对进攻推文分类中成功实现了74％的准确性。我们还列出了社交媒体界的滥用内容检测中的即将到来的挑战。

translated by 谷歌翻译

Effective General-Domain Data Inclusion for the Machine Translation Task by Vanilla Transformers

Hassan Soliman

分类：自然语言处理

2022-09-28

机器翻译历史上的重要突破之一是变压器模型的发展。不仅对于各种翻译任务，而且对于大多数其他NLP任务都是革命性的。在本文中，我们针对一个基于变压器的系统，该系统能够将德语用源句子转换为其英语的对应目标句子。我们对WMT'13数据集的新闻评论德语 - 英语并行句子进行实验。此外，我们研究了来自IWSLT'16数据集的培训中包含其他通用域数据以改善变压器模型性能的效果。我们发现，在培训中包括IWSLT'16数据集，有助于在WMT'13数据集的测试集中获得2个BLEU得分点。引入定性分析以分析通用域数据的使用如何有助于提高产生的翻译句子的质量。

translated by 谷歌翻译

Reactmine: a search algorithm for inferring chemical reaction networks from time series data

Julien Martinelli , Jeremy Grignard , Sylvain Soliman , Annabelle Ballesta , François Fages

分类： (统计)机器学习

2022-09-07

从时间序列数据中推断化学反应网络（CRN）是细胞水平上定量时间数据的可用性日益增长的挑战。这激发了算法的设计，以推断给定生化过程中观察到的分子物种之间的占主导反应，并有助于构建CRN模型结构和动力学。现有的基于ODE的推理方法，例如Sindy诉讼至少正方形回归，结合了稀疏性强制性惩罚，例如Lasso。但是，当仅在存在所有反应的野生型条件下提供输入时间序列时，我们观察到当前方法无法学习稀疏模型。结果：我们提出了一种Reactmine，这是一种CRN学习算法，该算法通过在有界深度的搜索树中以连续的方式推断反应来实现稀疏性，根据其动力学的差异对推断反应候选者进行排名，并重新计算CRN动力学参数在最后一遍中，整个痕迹对推断的CRN候选人进行排名。我们首先评估其在隐藏CRN基准的模拟数据上的性能，以及算法高参数敏感性分析，然后在两组真实的实验数据上进行评估：一组来自细胞周期和昼夜节律标记的蛋白质荧光视频，一个来自生物医学测量值。系统的昼夜节律生物标志物可能作用于外周器官中的时钟基因表达。我们表明，Reactmine通过检索Sindy失败的隐藏CRN以及通过与以前的研究一致的反应来取得成功。

translated by 谷歌翻译

IBISCape: A Simulated Benchmark for multi-modal SLAM Systems Evaluation in Large-scale Dynamic Environments

Abanob Soliman , Fabien Bonardi , Désiré Sidibé , Samia Bouchafa

分类：机器人

2022-06-27

高保真大满贯系统的开发过程取决于它们对可靠数据集的验证。为了实现这一目标，我们提出了IBiscape，这是一种模拟基准，其中包括来自异质传感器的数据同步和获取API：立体声 - RGB/DVS，深度，IMU和GPS，以及地面真相场景场景细分和车辆自我摄入量。我们的基准是建立在卡拉模拟器上的，后端是虚幻的引擎，呈现出模拟现实世界的高动态风景。此外，我们提供34个适用于自动驾驶汽车导航的多模式数据集，包括用于场景理解等情况，例如事故等，以及基于与API集成的动态天气模拟类别的广泛框架质量。我们还将第一个校准目标引入了Carla图，以解决CARLA模拟DVS和RGB摄像机的未知失真参数问题。最后，使用IBISCAPE序列，我们评估了四个ORB-SLAM 3系统（单眼RGB，立体RGB，立体声视觉惯性（SVI）和RGB-D）的性能和玄武岩视觉惯性轴测计（VIO）系统，这些系统在模拟的大型大型序列上收集的各种序列 - 规模动态环境。关键字：基准，多模式，数据集，探针，校准，DVS，SLAM

translated by 谷歌翻译

An Ensemble Approach to Acronym Extraction using Transformers

Prashant Sharma , Hadeel Saadany , Leonardo Zilio , Diptesh Kanojia , Constantin Orăsan

分类：自然语言处理

2022-01-09

首字母缩略词是通过在文本中使用短语的初始组件构建的短语单元的缩写单元。自动提取文本中的首字母缩略词可以帮助各种自然语言处理任务，如机器翻译，信息检索和文本汇总。本文讨论了缩写式萃取任务的集合方法，利用两种不同的方法提取缩略语及其相应的长形式。第一种方法利用多语言语境语言模型，并进行微调模型以执行任务。第二种方法依赖于卷积神经网络架构，以提取首字母缩略词并将其附加到先前方法的输出。我们还将官方培训数据集增强，其中包含从几个开放式期刊中提取的其他培训样本，以帮助提高任务性能。我们的数据集分析还突出显示当前任务数据集中的噪声。我们的方法在通过任务发布的测试数据上实现了以下宏观F1分数：丹麦语（0.74），英语 - 法律（0.72），英语 - 科学（0.73），法语（0.63），波斯（0.57），西班牙语（0.65），越南语（0.65）。我们公开发布我们的代码和模型。

translated by 谷歌翻译